We introduce an information-maximization approach for the Generalized Category Discovery (GCD) problem. Specifically, we explore a parametric family of loss functions evaluating the mutual information between the features and the labels, and find automatically the one that maximizes the predictive performances. Furthermore, we introduce the Elbow Maximum Centroid-Shift (EMaCS) technique, which estimates the number of classes in the unlabeled set. We report comprehensive experiments, which show that our mutual information-based approach (MIB) is both versatile and highly competitive under various GCD scenarios. The gap between the proposed approach and the existing methods is significant, more so when dealing with fine-grained classification problems. Our code: \url{https://github.com/fchiaroni/Mutual-Information-Based-GCD}.
translated by 谷歌翻译
Recent studies have revealed that, beyond conventional accuracy, calibration should also be considered for training modern deep neural networks. To address miscalibration during learning, some methods have explored different penalty functions as part of the learning objective, alongside a standard classification loss, with a hyper-parameter controlling the relative contribution of each term. Nevertheless, these methods share two major drawbacks: 1) the scalar balancing weight is the same for all classes, hindering the ability to address different intrinsic difficulties or imbalance among classes; and 2) the balancing weight is usually fixed without an adaptive strategy, which may prevent from reaching the best compromise between accuracy and calibration, and requires hyper-parameter search for each application. We propose Class Adaptive Label Smoothing (CALS) for calibrating deep networks, which allows to learn class-wise multipliers during training, yielding a powerful alternative to common label smoothing penalties. Our method builds on a general Augmented Lagrangian approach, a well-established technique in constrained optimization, but we introduce several modifications to tailor it for large-scale, class-adaptive training. Comprehensive evaluation and multiple comparisons on a variety of benchmarks, including standard and long-tailed image classification, semantic segmentation, and text classification, demonstrate the superiority of the proposed method. The code is available at https://github.com/by-liu/CALS.
translated by 谷歌翻译
学习相似性是医学图像分析的关键方面,尤其是在推荐系统或发现图像中解剖学数据的解释时。大多数现有方法使用单个公制学习者在嵌入空间中学习了这种相似性。但是,图像具有多种对象属性,例如颜色,形状或人工制品。使用单个公制学习者编码此类属性是不足的,并且可能无法概括。取而代之的是,多个学习者可以专注于总体嵌入子空间中这些属性的各个方面。但是,这意味着每个新数据集经验发现的学习者数量。这项工作,动态的子空间学习者,建议通过消除需要了解学习者的数量并在培训期间汇总新的子空间学习者来动态利用多个学习者。此外,通过将注意力模块整合到我们的方法中,可以实现此类子空间学习的视觉解释性。这种集成的注意机制提供了判别图像特征的视觉见解,这些特征有助于图像集的聚类和嵌入功能的视觉解释。在应用图像聚类,图像检索和弱监督分段的应用中,评估了我们基于注意力的动态子空间学习者的好处。我们的方法通过多个学习者基准的表现取得了竞争成果,并且在三个不同的公共基准数据集上的聚类和检索分数方面显着优于分类网络。此外,我们的注意力图提供了代理标签,与最先进的解释技术相比,骰子得分最高15%。
translated by 谷歌翻译
当前的无监督异常定位方法依赖于生成模型来学习正常图像的分布,后来用于识别从重建图像上的错误中得出的潜在异常区域。但是,几乎所有先前的文献的主要局限性是需要使用异常图像来设置特定于类的阈值以定位异常。这限制了它们在现实的情况下的可用性,其中通常只能访问正常数据。尽管存在这一主要缺点,但只有少量作品通过在培训期间将监督整合到注意地图上,从而解决了这一限制。在这项工作中,我们提出了一种新颖的公式,不需要访问异常的图像来定义阈值。此外,与最近的工作相反,提出的约束是以更有原则的方式制定的,在约束优化方面利用了知名的知识。特别是,对先前工作中注意图的平等约束被不平等约束所取代,这允许更具灵活性。此外,为了解决基于惩罚的功能的局限性,我们采用了流行的对数栏方法的扩展来处理约束。最后,我们提出了一个替代正规化项,该项最大化了注意图的香农熵,从而减少了所提出模型的超参数量。关于脑病变细分的两个公开数据集的全面实验表明,所提出的方法基本上优于相关文献,为无监督病变细分建立了新的最新结果,而无需访问异常图像。
translated by 谷歌翻译
现代深层神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到他们倾向于产生过于自信的估计,即使在高度不确定性的情况下,导致校准差和不可靠的模型。在这项工作中,我们介绍了错误的预测(MEEP)的最大熵,分割网络的培训策略,这些网络选择性地惩罚过度自信预测,仅关注错误分类的像素。特别是,我们设计了一个正规化术语,鼓励出于错误的预测,增加了复杂场景中的网络不确定性。我们的方法对于神经结构不可知,不会提高模型复杂性,并且可以与多分割损耗功能耦合。我们在两个具有挑战性的医学图像分割任务中将拟议的策略基准:脑磁共振图像(MRI)中的白质超强度病变,心脏MRI中的心房分段。实验结果表明,具有标准分割损耗的耦合MEEP不仅可以改善模型校准,而且还导致分割质量。
translated by 谷歌翻译
尽管深神经网络的占优势性能,但最近的作品表明它们校准不佳,导致过度自信的预测。由于培训期间的跨熵最小化,因此可以通过过度化来加剧错误烫伤,因为它促进了预测的Softmax概率来匹配单热标签分配。这产生了正确的类别的Pre-SoftMax激活,该类别明显大于剩余的激活。来自文献的最近证据表明,损失函数嵌入隐含或明确最大化的预测熵会产生最先进的校准性能。我们提供了当前最先进的校准损耗的统一约束优化视角。具体地,这些损失可以被视为在Logit距离上施加平等约束的线性惩罚(或拉格朗日)的近似值。这指出了这种潜在的平等约束的一个重要限制,其随后的梯度不断推动非信息解决方案,这可能会阻止在基于梯度的优化期间模型的辨别性能和校准之间的最佳妥协。在我们的观察之后,我们提出了一种基于不平等约束的简单灵活的泛化,这在Logit距离上强加了可控裕度。关于各种图像分类,语义分割和NLP基准的综合实验表明,我们的方法在网络校准方面对这些任务设置了新的最先进的结果,而不会影响辨别性能。代码可在https://github.com/by-liu/mbls上获得。
translated by 谷歌翻译
目前无监督的异常本地化方法依赖于生成模型来学习正常图像的分布,后来用于识别从重建图像上的误差导出的潜在的异常区域。然而,几乎所有先前文献的主要限制是需要采用异常图像来设置特定类阈值以定位异常。这限制了它们在现实方案中的可用性,通常可以访问正常数据。尽管存在这一重大缺点,但只有少数工程才能通过整合在培训期间对关注地图的监督来解决了这一限制。在这项工作中,我们提出了一种新的制定,不需要访问异常来定义阈值的图像。此外,与最近的工作相反,所提出的约束以更具原则的方式配制,利用了在约束优化中的知名知识。特别是,在现有工作中的注意图上的平等限制由不等式约束取代,这允许更灵活性。此外,为了解决基于惩罚的函数的限制,我们使用流行的日志屏障方法的扩展来处理约束。对流行的Brats'19数据集的综合实验表明,该方法的方法显着优于相关文献,为无监督的病变细分建立了新的最先进结果。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
最小化分布匹配损失是在图像分类的背景下的域适应的原则方法。但是,在适应分割网络中,它基本上被忽略,目前由对抗模型主导。我们提出了一系列损失函数,鼓励在网络输出空间中直接核心密度匹配,直至从未标记的输入计算的一些几何变换。我们的直接方法而不是使用中间域鉴别器,而不是使用单一损失统一分发匹配和分段。因此,它通过避免额外的对抗步骤来简化分段适应,同时提高培训的质量,稳定性和效率。我们通过网络输出空间的对抗培训使我们对最先进的分段适应的方法并置。在对不同磁共振图像(MRI)方式相互调整脑细分的具有挑战性的任务中,我们的方法在准确性和稳定性方面取得了明显的结果。
translated by 谷歌翻译
Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译